Harlander, E. (2024). Influence of Knowledge Graph Characteristics on Embedding-based Recommender Systems [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.111704
Recommender Systems (RS) play a crucial role in enhancing user experience in web application by providing personalized suggestions from a growing number of options. Using the rich context provided by a Knowledge Graph (KG) has gained attention in the scientific field as a way to improve the accuracy and explainability of these recommendations. However, there is still a lack of understanding on how distinctive characteristics of KGs can impact the performance of RS. This thesis investigates the influence of KG characteristics on the performance of RS with the following research questions: (RQ1) What are the defining characteristics of a KG that distinguishes it from another KG? How can these characteristics be quantified? (RQ2) What KGs are commonly used to evaluate KG-based recommender algorithms? What are their characteristics? (RQ3) How do the RS algorithms perform on KGs with distinctive characteristics? What influence do certain KG characteristics have on the performance of a family of recommendation algorithms? For the first two research questions semi-systematic reviews were conducted and the third research question was empirically investigated. Concretely, this investigation consisted of evaluating the performances using three different embedding algorithms (RDF2Vec, TransE and DistMult), distance-based methods (LDSD and Resim) and one information content-based approach (PICSS) across multiple KGs with distinctive characteristics. From the theoretical analysis for RQ1 we were able to identify four key categories of KG characteristics: quality characteristics, statistical characteristics, statistical distributions and characteristics obtained from graph theory. The second review revealed DBpedia, Wikidata and YAGO as favored KGs, which are openly accessible and maintained (RQ2). The results from the controlled experiment conducted to answer RQ3, validated through statistical testing, highlight the characteristics that significantly affect the performance of RS. Specifically the increase of the linkage with owl:sameAs predicates and the addition of inverse relations were mostly affecting the performances. Among the embedding-based algorithms, the inverse relations only influenced the performance with RDF2Vec, while TransE and DistMult were not significantly affected by this change. The inclusion of blank nodes in the graphs showed a statistical significance with TransE and also on the smaller graphs with RDF2Vec, while DistMult was only affected by the change of the linkage. The performances on the distance-based methods only changed significantly with the linkage and the inverse relations. The information content-based method remained unaffected over all experimental setups. This research contributes to the understanding of KG and their utilization in RS, offering a foundation for future discussion and enhancements of these systems.
en
Recommender Systeme spielen eine entscheidende Rolle bei der Verbesserung der Benutzererfahrung in Webanwendungen, indem sie personalisierte Vorschläge aus einer wachsenden Anzahl von Optionen liefern. Die Verwendung des reichhaltigen Kontexts von Knowledge Graphen hat im wissenschaftlichen Bereich als Möglichkeit zur Steigerung der Genauigkeit und Erklärbarkeit dieser Empfehlungen an Aufmerksamkeit gewonnen. Es gibt jedoch immer noch einen Mangel an Verständnis darüber, wie distinktive Charakteristiken von Knowledge Graphen die Performance von Recommender Systemen beeinflussen können. In dieser Arbeit wird der Einfluss von Knowledge Graphen Charakteristiken auf die Performanz von Recommender Systemen anhand folgender Forschungsfragen untersucht: (RQ1) Was sind die definierenden Charakteristiken eines Knowledge Graphen, die ihn von einem anderen Knowledge Graphen unterscheiden? Wie können diese Charakteristiken quantifiziert werden? (RQ2) Welche Knowledge Graphen werden in Knowledge Graph-basierten Recommender Systemen häufig verwendet? Was sind deren Charakteristiken? (RQ3) Wie verhält sie die Performanz von Recommender System-Algorithmen bei Knowledge Graphen mit distinktiven Charakteristiken? Welchen Einfluss haben bestimmte Charakteristiken auf die Performanz einer Familie von Recommender-Algorithmen? Für die ersten beiden Forschungsfragen wurden semi-systematische Literaturreviews durchgeführt und die dritte Forschungsfrage wurde empirisch untersucht. Konkret bestand die Untersuchung darin, die Performanz unter der Verwendung von drei unterschiedlichen Embedding-Algorithmen (RDF2Vec, TransE und DistMult), distanzbasierten Methoden (LDSD, Resim) und einem auf Informationsgehalt basierenden Ansatz (PICSS) für mehrere Knowledge Graphen mit distinktiven Charakteristiken zu messen. Aus der theoretischen Analyse für RQ1 konnten wir vier Hauptkategorien von Charakteristiken identifizieren: Qualitätscharakteristiken, statistische Charakteristiken, statistische Verteilungen und Charakteristiken abgeleitet aus der Graphentheorie. Die zweite Review ergab DBpedia, Wikidata und YAGO als favorisierte Knowledge Graphen, die öffentlich zugänglich sind und verwaltet werden (RQ2). Die Ergebnisse des kontrollierten Experiments, das zur Beantwortung von RQ3 durchgeführt und durch statistische Tests validiert wurde, hebt jene Charakteristiken hervor, welche die Performanz von Recommender Systemen signifikant beeinflussen. Insbesondere die Erhöhung der Verlinkungseigenschaft durch owl:sameAs Prädikate und das Hinzufügen von inversen Relationen wirkten sich am stärksten auf die Performanz aus. Bei den Embedding-basierten Algorithmen beeinflussten die inversen Relationen nur die Performanz bei RDF2Vec, während TransE und DistMult von dieser Änderung nicht signifikant betroffen waren. Die Ergänzung von Blank Nodes in den Graphen zeigte bei TransE und auch bei den kleineren Graphen bei RDF2Vec statistische Signifikanz, wohingegen DistMult nur von der Änderung der Verlinkung betroffen war. Die Performanzen bei den distanzbasierten Methoden änderten sich nur bei der Verlinkung und den inversen Relationen signifikant. Die auf dem Informationsgehalt basierende Methode blieb über alle experimentellen Durchführungen hinweg unbeeinflusst. Diese Forschung trägt zum Verständnis von Knowledge Graphen und ihrer Verwendung in Recommender Systemen bei und bietet eine Grundlage für zukünftige Diskussionen und Erweiterungen dieser Systeme.
de
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft