Burtscher, L. (2025). Enhancing Embedding-based Product Search using Large Language Models and Synthetic Query [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.120904
E194 - Institut für Information Systems Engineering
-
Date (published):
2025
-
Number of Pages:
86
-
Keywords:
large language models; synthetic query generation; embedding-based retrieval; product search; information retrieval; two-tower retriever; BART; data augmentation; neural information retrieval; e-commerce
en
Abstract:
E-Commerce-Plattformen haben sich zu integralen Bestandteilen des täglichen Lebens entwickelt und erfordern fortschrittliche Retrieval-Systeme, um eine optimale Benutzererfahrung zu gewährleisten. Traditionelle Methoden zur lexikalischen Term-Übereinstimmung, wie BM25, haben Schwierigkeiten mit semantischen Nuancen und scheitern daran, effektiv zu generalisieren, wenn kontextuelles Verständnis erforderlich ist. Embedding-basierte Retrieval-Modelle (EBR) beheben diese Einschränkungen, sind jedoch durch den Bedarf an umfangreichen, überwachten Datensätzen eingeschränkt.Diese Arbeit untersucht die Nutzung von Large Language Models (LLMs) zur Generierung synthetischer Produktsuchanfragen, um angereicherte Trainingsdatensätze für EBR-Systeme zu erstellen. Durch die Feinabstimmung von BART-Modellen werden synthetische Datensätze generiert, um eine zweisäulige neuronale Retriever-Architektur zu trainieren. Dieser Ansatz wird mit traditionellen BM25-Methoden und vortrainierten, auf LLM basierenden Retrievern anhand von Metriken wie NDCG und Precision@k verglichen.Die Ergebnisse zeigen Verbesserungen in der Genauigkeit und Relevanz von Retrievals und demonstrieren die Wirksamkeit synthetischer Daten zur Bewältigung von Herausforderungen bei der Datenknappheit. Diese Arbeit etabliert ein Framework zur Integration von LLMs in moderne Retrieval-Architekturen für Produktsuchen im E-Commerce.
de
E-commerce platforms have become integral components of daily life, requiring advanced retrieval systems to ensure an optimal user experience. Traditional lexical term matching methods, such as BM25, struggle with semantic nuances and fail to generalize effectively for tasks that require contextual understanding. Embedding-based retrieval (EBR) models address these limitations but are hindered by the need for extensive supervised datasets.This thesis investigates the use of Large Language Models (LLMs) to generate synthetic product search queries, creating enriched training datasets for EBR systems. Using fine-tuned BART models, synthetic datasets are generated to train a two-tower neural retriever architecture. This approach is compared against traditional BM25 methods and pre-trained LLM-based retrievers using metrics such as NDCG and Precision@k.The findings reveal improvements in retrieval accuracy and relevance, demonstrating the efficacy of synthetic data in addressing challenges of data scarcity. This work establishes a framework for integrating LLMs with modern retrieval architectures in the search for e-commerce products.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers