Automated evaluation and parameter optimisation for retrieval augmented generation systems

König, Simon

doi:10.34726/hss.2025.122443

DC Field

Value

Language

dc.contributor.advisor

Rauber, Andreas

dc.contributor.author

König, Simon

dc.date.accessioned

2025-03-04T09:43:06Z

dc.date.issued

2025

dc.date.submitted

2025-02

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">König, S. (2025). <i>Automated evaluation and parameter optimisation for retrieval augmented generation systems</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.122443</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2025.122443

dc.identifier.uri

http://hdl.handle.net/20.500.12708/212967

dc.description.abstract

Retrieval Augmented Generation (RAG)-Systeme verbinden Sprachmodelle mit externen Wissensdatenbanken. Die rapiden Fortschritte bei der Verarbeitung natürlicher Sprache (NLP) und maschinelles Lernen, insbesondere transformatorbasierte Architekturen, haben zur weit verbreiteten Entwicklung von RAG-Systemen geführt. Während das Feld in eine forschungsorientierte Richtung tendiert, bleibt der Entwurf solcher Systeme oft eher eine Kunst als eine Wissenschaft. Diese Arbeit soll zu einem wissenschaftlicheren Ansatz für den Entwurf und die Bewertung solcher Systeme beizutragen. In der jüngeren Forschung wurden Evaluierungs-Systeme eingeführt, die stark von gelabelten Datensätzen abhängen, um Anhaltspunkte für den Entwurf von RAG-Systemen zu liefern. Diese Systeme sind jedoch oft in Szenarien, in denen markierte Datensätze nicht verfügbar sind, nicht anwenbar. Diese Arbeit adressiert diese Problem und stellt ein leicht gewichtiges RAG-Evaluierungsframework vor, das auch mit unmarkierten Datensätzen umgehen kann. Zwei komplementäre Bewertungsmetriken finden Anwerndung in dieser Arbeit, die leichtgewichtige ROUGE-Metrik und die aufwendige LLM-Judge-Metrik. Diese Studie stellt ein neuartiges, gebrauchsfertiges RAG-Bewertungssystem vor und bietet allgemeine Richtlinien für ein verbessertes RAG Design. Zusätzlich wird der RAG-Triad-Ansatz als Methode zur effektiven Handhabung von Datensätzen ohne „ground-truth labels“ vorgeschlagen. Die Ergebnisse dieser Arbeit tragen zu dem, sich schnell entwickelnden Ökosystem der natürlichsprachlichen KI bei, indem sie einen robusten Rahmen für die Bewertung von RAG Systemen liefern.

dc.description.abstract

Retrieval Augmented Generation (RAG) systems connect language models to external knowledge bases. The rapid advancements in natural language processing (NLP) and machine learning, particularly transformer-based architectures, have led to the widespread development of RAG systems. While the field is trending in a research-oriented direction, the design of such system often remains more of an art than a science. This work aims to contribute to a more scientific approach for the design and evaluation of such systems. Recent research has introduced evaluation frameworks that heavily depend on labeled datasets to provide guidance for RAG system design. However, these frameworks often fall short in scenarios where labeled datasets are unavailable. This study addresses these limitations by proposing a lightweight RAG evaluation framework capable of handling unlabeled datasets. A RAG pipeline is developed and configured using the proposed evaluation system. The evaluation framework makes use of two complementary scoring metrics - the lightweight ROUGE metric and the elaborate LLM-judge metric. This study introduces a novel, ready-to-use RAG evaluation framework and offers general guidelines for improved RAG system design. Additionally, the RAG Triad approach is proposed as a method for effectively handling datasets without ground-truth labels. The findings of this work contribute to the rapidly evolving ecosystem of natural language AI by offering a robust framework for the evaluation, recommendation and innovation of RAG systems.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Information Retrieval

dc.subject

Knowledge Retrieval

dc.subject

Natural Language Processing

dc.subject

Large Language Model

dc.subject

Sentence Transformer

dc.subject

Parameter Evaluation

dc.subject

Vector embeddings

dc.subject

RAG

dc.title

Automated evaluation and parameter optimisation for retrieval augmented generation systems

dc.title.alternative

Automatisierte Evaluierung und Parameter Optimierung für Retrieval Augmented Generation Systeme

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2025.122443

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Simon König

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17456444

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0002-9272-6225

item.fulltext

with Fulltext

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.mimetype

application/pdf

item.openairetype

master thesis

item.cerifentitytype

Publications

item.grantfulltext

open

item.openaccessfulltext

Open Access

item.languageiso639-1

crisitem.author.dept

E130 - Fakultät für Physik

crisitem.author.parentorg

E000 - Technische Universität Wien

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(2.01 MB)

In Copyright

Show simple item record

Page view(s)

166

checked on Mar 4, 2025

Download(s)

163

checked on Mar 4, 2025

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM