Schmidt, A. (2023). Reproduction of Black-Box music analysis algorithms through machine learning [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.86725
E194 - Institut für Information Systems Engineering
-
Date (published):
2023
-
Number of Pages:
67
-
Keywords:
Music Information Retrieval; Music Feature Extraction; Machine Learning; Convolutional Neural Networks; Multi-Task Learning
en
Abstract:
Eine Sammlung von semantischen Musik-Features (d.h. Metriken, die bestimmte Merkmale von Musikstücken quantifizieren), die vom Musik-Streaming-Dienst Spotify angeboten wird, zeigt wissenschaftliche Relevanz im Forschungsfeld Music Information Retrieval aufgrund der Tatsache, dass sie in mehreren vorangegangenen Forschungsarbeiten eingesetzt wurde. Die Algorithmen, die zur Berechnung dieser semantischen Musik-Features verwendet werden sind nicht veröffentlicht und treten daher als „Black-Box“-Algorithmen auf. Diese Arbeit untersucht die Eigenschaften dieser Musik-Features und Ansätze zur Nachbildung der Algorithmen, die zu ihrer Berechnung verwendet werden, bzw. Alternativen dazu anhand aktueller Methoden aus dem Bereich Music Information Retrieval. Konkret wurden Algorithmen zur Vorhersage der Features "Danceability, "Acousticness", "Instrumentalness", "Speechiness", "Liveness", "Valence", "Energy" and "Loudness" untersucht. Das Ergebnis dieser Arbeit ist eine Charakterisierung der Eigenschaften der Musik-Features, sowie eine Reihe von Machine-Learning-Modellen, die die Berechnungen der Features reproduzieren, und eine Evaluierung, wie gut die Black-Box-Algorithmen reproduziert werden können.
de
In the research field of Music Information Retrieval a set of semantic music features (i.e. descriptors quantifying certain characteristics of pieces of music) that is offered by music streaming service Spotify has gained scientific relevance because of the fact that it has been used in various research works in the past. The algorithms that are originally used for the purpose of calculating these semantic music features are not public and therefore appear as ``black-box'' algorithms. This work studies the characteristics of these music features and approaches to reproduce or approximate the algorithms that are originally used for calculating them using state of the art methods from the field of Music Information Retrieval. Specifically, the features "Danceability", "Acousticness", "Instrumentalness", "Speechiness", "Liveness", "Valence", "Energy" and "Loudness" are investigated. The outcome of this work is a characterization of the properties of the music features, as well as a set of machine learning models that are reproducing the algorithms for calculation of the features and an evaluation of how well the black-box algorithms can be reproduced.