Die Methoden zur Erkennung von Halluzinationen haben sich hauptsächlich auf englischsprachigeTexte konzentriert, und die Erkennung in einem mehrsprachigen RAG-Setting bleibt eine Herausforderung, wahrscheinlich aufgrund des Mangels an verfügbaren annotierten Datensätzen. Diese Diplomarbeit baut auf den in [KR25] vorgestellten Token-Level Modellen auf, mit dem Ziel, diese auf eine neue Sprache, einen neuen Datensatz und ein neues Modell auszuweiten. In dieser Studie, schlagen wir einen neueartigen Ansatz zur Erstellung mehrsprachiger Modellen zur Erkennung von Halluzinationen vor. Dabei nutzten wir die Leistungsfähigkeit von Large Languange Models (LLMs), um einen Benchmark Datensatz, RAGTruth, in verschiedene Sprachen zu übersetzen, mit besonderem Schwerpunkt auf Deutsch. Unser deutsches Modell erreicht einen F1-Score von 79.95 in Example-Level Evaluierung, und übertrifft damit unser zwei Baselines, GPT-4-mini Prompting und RAGAS. Zusätzlich integrieren wir einen neuen Datensatz, RAGBench, in das ursprüngliche Framework und untersuchen den Einfluss von zusätzlichen Daten auf die Modellleistung. Das auf RAGBench trainierte Modell setzt ein neues State of the Art bei diesem Benchmark und erreicht einen AUROC Wert von 0.84, womit es die bisher beste Methode übertrifft. Zum Schluss, stellen wir eine Sentence-Level Modell zur Erkennung von Halluzinationen vor und vergleichen dessen Leistung mit dem ursprünglichenToken-Level Modell. Laut den Ergebnissen ist die Token-Level Methode effektiver. Die Implementierung dieser Arbeit ist als Open-Source in einem Fork von LettuceDettect auf GitHub1 verfügbar und wurde unter der MIT-Lizenz veröffentlicht.
de
Hallucination detection methods have predominantly been focused on English language text, and detection in a multilingual RAG setting remains a challenging task, probably due to lack of available annotated datasets. This work builds upon the token-level models introduced in [KR25], with the goal of extending them to a new language, a new dataset, and a new model. In this study, we propose a novel way of creating multilingual hallucination detection models, where we leverage the great capabilities of Large Language Models (LLMs) to translate a benchmark dataset, RAGTruth, into different languages, with a particular focus in German. Our German model achieves a F1-Score of 74.95 in example-level evaluation, outperforming our two baselines, GPT-4-mini prompting and RAGAS. Additionally, we integrate a new dataset, RAGBench, into the original framework and investigate the effect of additional training data on the model performance. Our model trained on RAGBench establishes a new state of the art on this benchmark, achieving an AUROC score of 0.84 and outperforming the previous best-performing method. Finally, we present a sentence-level hallucination detection model and compare its performance to the original token-level model, where the results show that the latter is more effective as its sentence-level counterpart.The implementation of this work is available open-source in a fork of the LettuceDetect repository on GitHub2 and is released under MIT Licence.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers