Oroz, T. (2024). Comparative analysis of retrieval augmented generator and standalone large language models [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.118825
Large Language Models (LLM); Retrieval Augmented Generator (RAG); Comparative Performance Analysis; Google Cloud Platform; Transformers; Llama; Information Retrieval; Vector Database; Computational Efficiency
en
Abstract:
Ziel dieser Arbeit ist es, eine vergleichende Leistungs- und Einrichtungsanalyse von Retrieval Augmented Generator (RAG) Architekturen und eigenständigen Large Language Models (LLMs) durchzuführen, wobei sich die Tests auf spezielle und spezifische Bereiche konzentrieren. Large Language Models sind fortschrittliche Algorithmen für maschinelles Lernen, die auf Textdatensätzen im Petabyte-Bereich trainiert wurden, um menschenähnliche Texte zu erzeugen. Sie zeigen hervorragende Leistungen bei einer Vielzahl von Sprachaufgaben, haben aber manchmal Schwierigkeiten mit aktuellen, domänenspezifischen oder privat verfügbaren Informationen. Andererseits stellen RAG-Modelle einen innovativen Ansatz in diesem Bereich dar. Sie kombinieren die breite Wissensbasis von LLMs mit Echtzeit-Informationsbeschaffung aus zusätzlichen Datenquellen. Dieses hybride Modell zielt darauf ab, die Antwortqualität zu verbessern, indem aktuelle und relevante Informationen bereitgestellt werden. Die Studie konzentriert sich auf die Fähigkeit der RAG, die Breite des Wissens von LLMs zu nutzen und gleichzeitig die Aktualität und Korrektheit externer Daten einzubeziehen. Sie zielt darauf ab, die Verbesserungen oder Einschränkungen von RAG im Vergleich zu eigenständigen LLMs in Bezug auf Antwortgenauigkeit, Antwortzeit und Berechnungseffizienz aufzudecken. Diese Forschung soll Einblicke in die Leistung dieser beiden unterschiedlichen Systeme in einem spezialisierten Bereich geben. Die Ergebnisse zeigen, dass die RAG eine signifikante Verbesserung der Antwortqualität bei einer relativ geringen Erhöhung der Antwortzeit und der Rechenlast aufweist. Die spezialisierte Domäne für diese Forschung konzentrierte sich auf das Wissen rund um die Google Cloud Platform-Technologien, die darauf abzielen, die Bedürfnisse der Spezifität und Aktualität einer bestimmten Domäne zu replizieren.
de
This thesis goal is to achieve a comparative performance and setup analysis of Retrieval Augmented Generator (RAG) architectures and standalone Large Language Models (LLMs), with a testing being focused in specialized and specific domains. Large Language Models, are advanced machine learning algorithms trained on close to petabyte scale text datasets to generate human like text. They have outstanding performance in a wide variety of language tasks, but sometimes struggle with up-to-date, domain-specific information or privately available information. On the other hand, RAG models represent an innovative approach in the field. They combine the wide knowledge base of LLMs with real-time information retrieval from additional data sources. This hybrid model aims to improve response quality by providing up-to-date and relevant information. The study focuses on the ability of RAG to use the breadth of knowledge from LLMs while incorporating the currentness and correctness of external data. It aims to uncover the improvements or limitations of RAG compared to standalone LLMs, in terms of answer accuracy, response time, and computational efficiency. This research aims to provide insights into how these two distinct setups perform in a specialized domain. The results showed how RAG had a significant improvement in answer quality, while having a relatively small increase in response time and computational load. Specialized domain for this research focused on knowledge surrounding Google Cloud Platform technologies, which aim to replicate the needs of specificity and currentness of a particular domain.