Kinoshita, Y. (2024). Automatic music mood tagging: EMMA dataset [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.115181
E194 - Institut für Information Systems Engineering
-
Date (published):
2024
-
Number of Pages:
75
-
Keywords:
Machine Learning; Artificial Intelligence; Deep Learning; Music; Mood; Music Information Retrieval; Audio processing; Oversampling; Data augmentation
en
Abstract:
Music mood tagging Models, die vorhersagen, welche Stimmungen bestimmte Musiktitel bei Menschen auslösen können, spielen eine entscheidende Rolle bei der Anwendungen von Empfehlungsdiensten (engl. Recommender Systems) für Musik und der Erstellung von stimmungsbasierter Wiedergabelisten.In dieser Arbeit werden Methoden und Ansätze für das Tagging von Stimmungen in Musik anhand des EMMA-Datensatzes untersucht. Dieser Datensatz beinhaltet Musiktitel und die dazugehörigen Annotationen über die Stimmungen, die sie bei Zuhörern hervorrufen sollen.Um die menschliche Wahrnehmung konsistent zu erfassen, wurden die Annotationen von einem Team von Psychologen durch kontrollierte Experimente/Umfragen erstellt.Der EMMA-Datensatz weist jedoch auch einige Hürden auf, die das Trainieren von Stimmungs-Tagging-Modellen erschweren.Bestimmte Wertebereiche von einigen Stimmungen können schwer durch das Modell vorhergesagt werden, da bestimmte Werte durch die extreme Rechtsschiefe Verteilung im Datensatz unterrepräsentiert werden. Die Datensatzgröße ist auch sehr klein, insbesondere im Vergleich zu anderen Datensätzen im Bereich des Music Information Retrieval. Daher ist die Wirksamkeit von Oversampling und Data Augmentation als Lösung auch sehr begrenzt. Die Kombination dieser beiden Probleme verstärkt die Schwierigkeit der Aufgabe.Um diese Herausforderungen zu bewältigen, wurden verschiedene Ansätze und neu vorgeschlagene Methoden erforscht, die durch frühere Forschungen zu ähnlichen Problemen inspiriert wurden. In dieser Arbeit werden Oversampling- und Data Augmentation Ansätze für Regressionsaufgaben mit ungleichmäßig verteilten Zielvariablen untersucht, insbesondere in Fällen, in denen Labels empfindlich auf Veränderungen der Audiomerkmale reagieren. Der vorgeschlagene DOMR-Ansatz zeigt zwar vielversprechende Ergebnisse, doch wurden nicht immer statistisch signifikante Verbesserungen der Modellleistung erzielt. Nichtsdestotrotz wurden wertvolle Einblicke in die Grenzen und Probleme bei der Nutzung des Datensatzes für Musik-Tagging-Aufgaben und die Modellleistung gewonnen, die bei zukünftigen Entwicklungen des EMMA-Datensatzes hilfreich sein können.Zusammenfassend lässt sich sagen, dass diese Arbeit verschiedene Herausforderungen beim Stimmungs-Tagging von Musik anhand des EMMA-Datensatzes unterstreicht und erste Einblicke in mögliche Ansätze für Oversampling- und Data Augmentation gibt. Es sind jedoch noch weitere Forschungen in verschiedenen Bereichen erforderlich, um diese Herausforderungen zu bewältigen.
de
Music mood tagging, the task of predicting mood labels to music tracks, plays a crucial role in applications such as music recommendation systems and mood-based playlist generation. This thesis investigates methodologies and approaches for music mood tagging using the EMMA dataset, a dataset comprised of music tracks annotated with the moods evoked in the listeners as score values. The annotations were created by a team of researchers in the field of psychology through controlled experiments, aiming to capture human perception consistently. Nevertheless, the EMMA dataset also presents certain limitations that present challenges for training music mood tagging models.Certain values are difficult to predict as they are underrepresented because of the extreme right skewness of certain mood scores in the dataset.The sample size is also very small, especially compared to other datasets in the field of Music Information Retrieval. Therefore, the effectiveness of Oversampling and Data Augmentations as a solution is very limited.The combination of these two issues intensifies the difficulty of the task at hand.To address these challenges, various approaches and newly proposed methods, inspired by past research of similar tasks were explored.In an effort to overcome these challenges, this thesis investigates Oversampling and Data Augmentation approaches for regression tasks with imbalanced target variables, particularly in cases where labels are sensitive to changes in the audio features. While the proposed DOMR approach shows promising results, statistically significant improvements in model performance were not always achieved. Nevertheless, valuable insights into the limitation and problems when utilizing the dataset for music tagging tasks, and model performance were gained, which can help future developments of the EMMA dataset.In conclusion, this thesis has shed light on various challenges in music mood tagging using the EMMA dataset and provided initial insights into possible oversampling and data augmentation approaches. However, further research into various areas is still necessary to overcome these limitations.