Rotheneder, L. (2023). An explanation system for CNN music genre classification based on semantic descriptorsn [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.101844
Convolutional Neural Networks (CNN) erzielen gute Ergebnisse bei der Klassifizierung von Musikgenres, sind aber nicht ohne weiteres interpretierbar. Diese Masterarbeit stellt einen Erklärungsansatz vor, der die Semantik beschreibende Musik Eigenschaften als Rechtfertigung für eine Genreklassifizierung liefert, sowie einen Ansatz, um das introspektive Verständnis eines CNN Musikgenre-Klassifikationsmodells zu verbessern, indem die von den Faltungsschichten erzeugten Feature-Maps zu jenen Musik Eigenschaften zugewiesen werden, welche sie am besten abbilden. Für den Rechtfertigungsansatz wird eine systematische Literaturrecherche durchgeführt, um ein geeignetes Modell zur Vorhersage von Musik Eigenschaften auswählen zu können. Wir fanden heraus, dass semantische Musik Eigenschaften aus Audio-Datein erlernt werden können, allerdings reicht die Anzahl der vorhergesagten Eigenschaften nicht aus, um eine Genreklassifizierung rechtfertigen zu können. Außerdem haben wir festgestellt, dass die Erklärungen in Form von semantischen Eigenschaften, die von dem vorgeschlagenen Erklärungssystem geliefert werden, für das Ground-Truth Genre relevant sind. Darüber hinaus stellen wir eine Möglichkeit vor, die bereitgestellten Eigenschaften im Modell-Input zu visualisieren. Für den zweiten Ansatz testen wir k-Nearest Neighbour und Random Forest, um semantische Eigenschaften auf Feature-Maps abzubilden. Wir bieten auch eine Visualisierung der Feature-Maps welche die semantischen Eigenschaften von zwei Beispiel Liedern am besten darstellen. Weiters wird gezeigt, wie sich Feature-Maps von unterschiedlichen Schichten unterscheiden, und bewertet, welche und wie gut die semantischen Eigenschaften von den jeweiligen Feature-Maps abgebildet werden können. Wir waren jedoch nicht in der Lage, Feature-Maps zu finden, die alleine eine semantische Eigenschaft vollständig abbilden kann.
de
Convolutional Neural Networks (CNN) achieve a good performance in music genre classification but are not readily interpretable. This master thesis proposes an explanation approach that provides semantic descriptors as a justification for a music genre classification as well as an approach to gain introspective understanding of a CNN music genre classification model, by assigning appropriate semantic descriptors to feature maps, generated by the convolutional layers. For the justification approach a systematic literature review is conducted to find a suitable model to predict semantic descriptors. We found that semantic descriptors can be learned from audio inputs as used for state-of-the-art CNN genre classification models, however the number of predicted tags is not enough to justify a genre classification. Additionally, we found that the explanations in form of semantic descriptors provided by the proposed explanation system are indeed relevant to the ground truth genre. Furthermore, we present a way to visualize the provided descriptors in the input. For the introspective approach, we consider k-Nearest Neighbour and Random Forest to map descriptive labels to feature maps. We also provide a visualization of the feature maps that represents the semantic descriptors best for two example songs. We show how feature maps differ from different layers and assess how well a feature map covers the semantic of a descriptor. However, we were not able to find feature maps that alone can fully represent a semantic descriptor.