<div class="csl-bib-body">
<div class="csl-entry">Burtscher, L. (2025). <i>Enhancing Embedding-based Product Search using Large Language Models and Synthetic Query</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.120904</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.120904
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/216331
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
E-Commerce-Plattformen haben sich zu integralen Bestandteilen des täglichen Lebens entwickelt und erfordern fortschrittliche Retrieval-Systeme, um eine optimale Benutzererfahrung zu gewährleisten. Traditionelle Methoden zur lexikalischen Term-Übereinstimmung, wie BM25, haben Schwierigkeiten mit semantischen Nuancen und scheitern daran, effektiv zu generalisieren, wenn kontextuelles Verständnis erforderlich ist. Embedding-basierte Retrieval-Modelle (EBR) beheben diese Einschränkungen, sind jedoch durch den Bedarf an umfangreichen, überwachten Datensätzen eingeschränkt.Diese Arbeit untersucht die Nutzung von Large Language Models (LLMs) zur Generierung synthetischer Produktsuchanfragen, um angereicherte Trainingsdatensätze für EBR-Systeme zu erstellen. Durch die Feinabstimmung von BART-Modellen werden synthetische Datensätze generiert, um eine zweisäulige neuronale Retriever-Architektur zu trainieren. Dieser Ansatz wird mit traditionellen BM25-Methoden und vortrainierten, auf LLM basierenden Retrievern anhand von Metriken wie NDCG und Precision@k verglichen.Die Ergebnisse zeigen Verbesserungen in der Genauigkeit und Relevanz von Retrievals und demonstrieren die Wirksamkeit synthetischer Daten zur Bewältigung von Herausforderungen bei der Datenknappheit. Diese Arbeit etabliert ein Framework zur Integration von LLMs in moderne Retrieval-Architekturen für Produktsuchen im E-Commerce.
de
dc.description.abstract
E-commerce platforms have become integral components of daily life, requiring advanced retrieval systems to ensure an optimal user experience. Traditional lexical term matching methods, such as BM25, struggle with semantic nuances and fail to generalize effectively for tasks that require contextual understanding. Embedding-based retrieval (EBR) models address these limitations but are hindered by the need for extensive supervised datasets.This thesis investigates the use of Large Language Models (LLMs) to generate synthetic product search queries, creating enriched training datasets for EBR systems. Using fine-tuned BART models, synthetic datasets are generated to train a two-tower neural retriever architecture. This approach is compared against traditional BM25 methods and pre-trained LLM-based retrievers using metrics such as NDCG and Precision@k.The findings reveal improvements in retrieval accuracy and relevance, demonstrating the efficacy of synthetic data in addressing challenges of data scarcity. This work establishes a framework for integrating LLMs with modern retrieval architectures in the search for e-commerce products.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
large language models
en
dc.subject
synthetic query generation
en
dc.subject
embedding-based retrieval
en
dc.subject
product search
en
dc.subject
information retrieval
en
dc.subject
two-tower retriever
en
dc.subject
BART
en
dc.subject
data augmentation
en
dc.subject
neural information retrieval
en
dc.subject
e-commerce
en
dc.title
Enhancing Embedding-based Product Search using Large Language Models and Synthetic Query
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2025.120904
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Lukas Burtscher
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering