Hübler, M. (2022). Analysing music collection datasets to investigate the impact of record labels on music recommender systems [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.98121
E194 - Institut für Information Systems Engineering
-
Date (published):
2022
-
Number of Pages:
83
-
Keywords:
music recommender systems; bias; feedback loops; music record labels
en
Abstract:
Diese Arbeit untersucht die Dimension von Plattenlabels in Musik Datensätzen für Empfehlungssysteme und deren Einfluss darauf. Um diese Wirkung zu untersuchen, wird zunächst ein mehrstufiger Web-Crawling-Ansatz vorgestellt, der Plattenlabel-Informationen für einzelne Alben sowie eine Zuordnung zu großen Plattenfirmen (Universal, Sony, Warner) oder Independent ermittelt. Dieser Crawler wird verwendet, um zwei Datensätze anzureichern, nämlich das Spotify Million Playlist Datenset und das LFM-2b Datenset mit Hörprofilen von Last.fm. Anhand der zusätzlichen Informationen können verschiedene Merkmale aufgezeigt und bestimmte Verzerrungen in den nutzergenerierten Musiksammlungen von Playlists und Hörprofilen identifiziert werden. Darüber hinaus werden Experimente mit Empfehlungssystemen durchgeführt, bei denen Label-Informationen verwendet werden, um Empfehlungen neu zu ordnen und die Leistung von Offline-Empfehlungssystemen zu verbessern. Zusätzlich werden erste Ergebnisse einer Feedbackschleifen-Simulation vorgestellt, in der die Stabilität der Plattenlabel-Verteilung in längeren Empfehlungs-Zyklen untersucht wird. Alle Ergebnisse und die gesammelten Informationen über Plattenlabels werden der Forschungsgemeinschaft öffentlich zugänglich gemacht.
de
This thesis is investigating the dimension of record labels in music recommendation datasets and studying their impact in recommender systems. To study their effect, first, a multi-stage web crawling approach is presented that retrieves record label information for individual albums as well as an assignment to a major record company (Universal, Sony, Warner) or independent. This crawler is used to enrich two datasets, namely the Spotify Million Playlist Dataset and the LFM-2b dataset using Last.fm listening profiles. Based on the additional information, we can show different characteristics and identify particular biases in their user-generated music collections of playlists and listening profiles. Furthermore, recommender system experiments are conducted, using label information to re-rank recommendations to improve offline recommender system performance. Additionally, first results of feedback loop simulation are presented, where the stability of record label distribution in longitudinal recommendations are studied. All findings and gathered record label information are made publicly available to the research community.