Wimmer, A. (2021). Personalized accommodation recommendations using deep learning, topic modeling and semantic approaches [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.58262
E194 - Institut für Information Systems Engineering
-
Date (published):
2021
-
Number of Pages:
97
-
Keywords:
tourism recommender systems; user model; deep learning; semantic network
de
tourism recommender systems; user model; deep learning; semantic network
en
Abstract:
The Seven-Factor Model encodes touristic travel profiles using seven basic factors and can be used for Recommender Systems. Mapping new product-centric tourism data to tourist-centric Seven-Factor Model profiles is a demanding task and it has to be repeated for numerous data sources. Streamlining this process would simplify the adoption of the Seven-Factor Model. To do so, we propose a new representation of tourism products with two requirements: First, it must be product-centric and allow easy mapping from product-centric data. Second, it must be accurate and complete and it can be mapped once and for all to the Seven-Factor Model. The complex task of mapping product-centric data to the Seven-Factor Model is reduced to the simpler task of mapping product-centric data to a product-centric representation. We use three machine learning methods (autoencoder neural networks, topic modeling, and clustering by semantic similarity) to build 13 low-dimensional candidate representations from a tourism database. We test the candidates for compliance with above requirements: First, to test representation fidelity we compare the clustering of tourism products by the candidate representation to the clustering by the original data. Second, to test interpretability, we look at the representation qualitatively and try to find meaning in the attributes. It turns out that the autoencoder representation is the most accurate, but it is neither understandable nor interpretable. The representation based on semantic similarity is very accurate and also interpretable and understandable. We conclude that clustering by semantic similarity is a viable method to create a low-dimensional representation of a tourism database. The representation based on semantic similarity is a useful product-centric representation and can be used as an intermediate step to simplify the mapping of product data to the Seven-Factor Model.
en
Das Sieben-Faktor-Modell dient der Darstellung von touristischen Reiseprofilen und kann für Recommender-Systeme verwendet werden. Das Abbilden von produktzentrierten Tourismusdaten auf das touristenzentrierte Sieben-Faktor-Modell ist ein langwieriger Prozess, der für unzählige Datenquellen wiederholt werden muss. Eine Optimierung dieses Prozesses wäre hilfreich um die Anwendung des Sieben-Faktor-Modells zu vereinfachen. Dafür schlagen wir eine neue Repräsentation von Tourismusdaten mit zwei Anforderung vor: Erstens, die Repräsentation ist produktzentriert, und es muss einfach sein, Produktdaten auf die Repräsentation abzubilden. Zweitens, die Repräsentation ist vollständig und genau und kann auf festgelegte Weise auf das Sieben-Faktor-Modell abgebildet werden. Die komplexe Aufgabe, von produktzentrierten Daten auf das Sieben-Faktor-Modell abzubilden, wird auf die einfachere Aufgabe, produktzentrierte Daten auf eine produktzentrierte Repräsentation abzubilden, reduziert. Wir benutzen drei Methoden maschinellen Lernens (Autoencoder-Netzwerke, Topic Modeling, und Clustern nach semantischer Ähnlichkeit) um 13 niedrigdimensionale Kandidaten für die Repräsentation aus einer Tourismusdatenbank abzuleiten. Wir testen die Kandidaten auf Erfüllung der obigen Anforderungen: Erstens, um die Wiedergabetreue der Repräsentation zu testen, vergleichen wir das Clustering der touristischen Produkte auf Basis der Repräsentation mit dem Clustering auf Basis der Originaldatenbank. Zweitens, um die Interpretierbarkeit zu testen, sehen wir die Repräsentationen qualitativ durch und versuchen die Bedeutung der Attribute abzuleiten. Es ergibt sich, dass die Repräsentation auf Basis des Autoencoders die genaueste ist. Dafür ist sie jedoch unverständlich und uninterpretierbar. Die Repräsentation auf Basis semantischer Ähnlichkeit ist ebenfalls sehr genau, und zusätzlich verständlich und interpretierbar. Clustern nach semantischer Ähnlichkeit ist also eine praktikable Methode um eine niedrigdimensionale Repräsentation aus einer Tourismusdatenbank abzuleiten. Die Repräsentation auf Basis semantischer Ähnlichkeit kann als Zwischenschritt verwendet werden, um die Abbildung von Produktdaten auf das Sieben-Faktor-Modell zu vereinfachen.