The impact of using Large Language Models on the performance of Recommender Systems

Schmiedmayer, Michael

doi:10.34726/hss.2026.118745

Record link:

https://doi.org/10.34726/hss.2026.118745
http://hdl.handle.net/20.500.12708/228927

Title:

The impact of using Large Language Models on the performance of Recommender Systems

Citation:

Schmiedmayer, M. (2026). The impact of using Large Language Models on the performance of Recommender Systems [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.118745

reposiTUm DOI:

10.34726/hss.2026.118745

CatalogPlus:

AC17903194

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Schmiedmayer, Michael

Advisor:

Neidhardt, Julia

Co-advisor:

Wagne, Ahmadou

Organisational Unit:

E194 - Institut für Information Systems Engineering

Date (published):

2026

Number of Pages:

106

Keywords:

Conversational Recommender Systems; Large Language Models

Abstract:

Diese Arbeit untersucht die Integration von Large Language Models (LLMs) in dialogorientierte Empfehlungssysteme (Conversational Recommender Systems, CRS) und evaluiert die Auswirkungen von Modellgröße und Parameterkonfigurationen der LLMs auf die Retrieval-Performance. Über rein künstliche Vergleichstests hinausgehend, führt diese Forschungsarbeit ein neuartiges End-zu-End-Evaluierungsframework ein, das auf realem Nutzerverhalten basiert. Als Datengrundlage für dieses Framework wurde ein kuratierter Datensatz aus 734 Anfrage-Ziel-Paaren, der durch eine Nutzerstudie validiert wurde, direkt aus historischen Klickpfad- und Filterprotokollen der Preisvergleichsplattform Geizhals synthetisiert.Empirische Evaluierungen mithilfe dieses Frameworks liefern drei zentrale Erkenntnisse. Erstens weisen LLMs signifikante Limitierungen auf, wenn sie komplexe, mehrstufige Nutzerverhaltensweisen autonom in einzelne natürlichsprachliche Absichten übersetzen, da sie häufig unter Fehlinterpretationen oder Kontextverlust leiden. Zweitens ist die Parametergröße eines Modells beim aktiven Produkt-Abruf via SQL-Erzeugung ein starker Prädiktor für die systemische Zuverlässigkeit und absolute Trefferquoten. Dennoch zeigt das kleinere, auf Programmiercode spezialisierte Modell (Qwen-Coder-30B) aufgrund einer engeren Filterlogik eine hohe Präzision und Platzierungsqualität. Schließlich zeigt eine Raster-Such-Analyse, dass die Feinabstimmung der Parameter (Temperatur und Top-p) nur marginale Auswirkungen auf die Gesamtleistung hat. Dies belegt, dass der Erfolg eines CRS primär von einer robusten Anweisungsstruktur und autonomen Rückfallmechanismen abhängt, anstatt von granularen Anpassungen des Auswahlverfahrens.

This thesis investigates the integration of Large Language Models (LLMs) into Conversational Recommender Systems (CRSs), evaluating the impact of model scale and hyperparameter configurations on retrieval performance. Moving beyond purely synthetic benchmarks, this research introduces a novel, end-to-end evaluation framework grounded in real-world user behaviour. To fuel this framework, a curated dataset of 734 query-target pairs, validated through a user study, was synthesised directly from historical clickstream and filtering logs from the price comparison platform Geizhals. Empirical evaluations using this framework reveal three primary insights. First, LLMs exhibit significant limitations when autonomously translating complex, multi-step user behaviours into single natural language intents, frequently suffering from hallucinations or context loss. Second, during active product retrieval via SQL generation, a model’s parameter scale is a strong predictor of systemic reliability and absolute hit rates; however, the smaller, code-specialised model (Qwen-Coder-30B) demonstrates superior precision and ranking quality due to more stringent filtering logic. Finally, a grid search analysis shows that hyperparameter tuning (Temperature and Top-p) exerts only a marginal impact on overall performance, showing that CRS success is driven predominantly by robust prompt architecture and autonomous fallback mechanisms rather than granular sampling adjustments.

Additional information:

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

License:

In Copyright

Appears in Collections:

Thesis