Hofmaier, M. (2024). Exploration of Content-Based Cross-Domain Podcast Recommender Systems [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.112170
E194 - Institut für Information Systems Engineering
-
Date (published):
2024
-
Number of Pages:
134
-
Keywords:
Podcast Recommendation; Cross Domain Recommendation; News Article Recommendation; Information Retrieval; Natural Language Processing; Learning to Rank; Data Annotation; Topic Modeling
en
Abstract:
Podcasts haben sich im letzten Jahrzehnt zu einem beliebten Medium entwickelt. Die riesige Menge an verfügbaren Daten motiviert die Forschung zu Podcast-Empfehlungssystemen, um diese Daten den Nutzern zugänglich zu machen. Da interaktionsbasierte Datensätze für Podcasts nur den großen Streaming-Anbietern zur Verfügung stehen, werden inhaltsbasierte Methoden benötigt, um ein Empfehlungssystem aufzubauen. Die Entwicklung inhaltsbasierter Empfehlungssysteme ist eng mit dem Bereich des Information Retrieval verbunden, der im Podcast-Bereich gut untersucht ist. Die meisten dieser Forschungsarbeiten befassen sich jedoch mit dem Retrieval auf der Grundlage der Transkription der Audiodatei und vergleichen nicht die Effektivität anderer Darstellungen, was eine Forschungslücke darstellt. Podcasts werden oft als das auditive Gegenstück zu textuellen Medien wie Nachrichtenartikeln bezeichnet, und die Verwendung von Transkriptionen verbindet diese verschiedenen Medientypen auch in der Art und Weise, wie ihr Inhalt dargestellt wird. Die Ähnlichkeit der Medien motiviert die Forschung zu domänenübergreifenden Empfehlungssystemen, die darauf abzielen, Informationen aus einer Quelldomäne, wie z. B. Podcasts, zu nutzen, um Empfehlungen in anderen Domänen zu generieren. In der Forschung wurde jedoch noch kein derartiges System für den Bereich Podcasts veröffentlicht.Um diese Lücken zu schließen, untersuchen wir, wie ein inhaltsbasiertes, domänenübergreifendes Empfehlungssystem zwischen Podcasts und Nachrichtenartikeln aufgebaut und evaluiert werden kann, ohne dass interaktionsbasierte Daten verfügbar sind. Darüber hinaus untersuchen wir wie sich verschiedene Attribute, die zur Darstellung von Podcasts in einem Empfehlungssystem verwendet werden, auf die Leistung des Systems auswirken. Dies geschieht durch die Erstellung eines manuell annotierten Datensatzes zwischen Podcast-Segmenten und Nachrichtenartikeln. Unter Verwendung dieses Datensatzes berechnen wir mehrere Modelle, die jeweils unterschiedliche Podcast-Darstellungen verwenden, mit dem Ziel, Empfehlungen für Nachrichtenartikel anhand eines bestimmten Podcast-Segments zu generieren. Bei der Evaluierung der Ranking-Qualität und der thematischen Vielfalt stellen wir fest, dass unser Ansatz vier verschiedene Basismodelle in Bezug auf die Ranking-Qualität übertrifft. Wir stellen jedoch auch fest, dass diese Steigerung der Ranking-Qualität auf Kosten der Empfehlungsvielfalt geht. Außerdem beobachten wir entgegen unserer vorherigen Annahmen nicht eine bestimmte Gruppe von Podcast-Merkmalen, die alle anderen übertrifft, aber große Unterschiede zwischen verschiedenen Podcast-Shows. Dies motiviert zu einer tieferen Untersuchung der Eigenschaften von Shows, die diese Unterschiede erklären könnten.
de
Podcasts have become a popular medium in the last decade. The huge amount of data available motivates research on podcast recommender systems to make this data accessible to users. Since interaction-based datasets for podcasts are only available to the large streaming providers, content-based methods are needed to build a recommender system. Building content-based recommender systems is closely related to the field of information retrieval, which is well studied in the podcast domain. However, most of this research examines retrieval based on the textual transcription of the audio file and does not compare the effectiveness of other representations such as metadata or audio features, which represents a gap in the research. Podcasts are often referred to as the auditory counterpart of textual media such as news articles, and using transcriptions also connects these different types of media in the way their content is represented. This similarity in media content motivates research on cross-domain recommender systems, which aim to use information from one source domain, such as podcasts, to generate recommendations in other domains. However, no such system in the podcast domain has been published in research. To address these research gaps, we investigate how to build and evaluate a content-based cross-domain recommender system between podcasts and news articles without the availability of interaction-based data. Furthermore, in this work, we investigate how different attributes used to represent podcasts in a recommender system scenario affect the performance of the system. This is done by creating a manually annotated cross-domain dataset between podcast segments and news articles. Using this dataset, we fit several models, each using a different set of podcast representations, with the goal of generating news article recommendations given a particular podcast segment. Performing an evaluation in terms of ranking quality measures and the beyond-accuracy measure of topical diversity, we find that our approach outperforms four different baseline models in terms of ranking quality. However, we also find that this increase in ranking quality comes at the expense of recommendation diversity. Moreover, contrary to our prior beliefs, we do not observe a particular set of podcast features that outperform all others, but rather a large difference in performance between different podcast shows, which motivates further investigation into the properties of shows that might explain these differences.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers