Rjabcsenko, P. (2025). Multi-task Learning of Rhythmic and Tonal Properties in Music [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.85241
E194 - Institut für Information Systems Engineering
-
Date (published):
2025
-
Number of Pages:
85
-
Keywords:
Music Information Retrieval; Multi-Task Learning; Beat Tracking; Chord Recognition
en
Abstract:
Das schnelle Wachstum der künstlichen Intelligenz hat ihre Anwendung auf eine Vielzahl von Aufgaben in verschiedenen Forschungsbereichen ermöglicht. Fortschritte in der KI Ansätze für multimediale Aufgaben haben das Interesse einer breiteren Öffentlichkeitgeweckt und sind in Form von analytischen Anwendungen, Unterhaltungssoftware und anderen Formen in den Mainstream gelangt. Der Musikbereich stellt keine Ausnahme dar: Methoden zur Audioanalyse und Musikgenerierung, die maschinelles Lernen nutzen, insbesondere Deep-Learning-Modelle, erfreuen sich aufgrund ihres Erfolgs im Vergleich zu herkömmlichen handgefertigten Signalverarbeitungsmethoden immer größerer Beliebtheit. Das Ziel dieser Arbeit ist es, das Potenzial eines kombinierten Modells für zwei Musikanalyseaufgaben zu untersuchen: Beat-Tracking und Akkorderkennung. Die State-of-the-ArtLösungen für diese beiden Probleme basieren stark auf Deep Learning. Darüber hinaus haben sich Multitask-Ansätze für einige Musikanalyseaufgaben in der Vergangenheit bereits als erfolgreich erwiesen. Es ist sehr wahrscheinlich, dass sich die beiden Probleme in gewisser Weise überschneiden und ein gemeinsames Deep-Learning-Modell von den Daten für beide Aufgaben profitieren könnte. Außerdem bietet die gemeinsame Nutzung eines Modells praktische Vorteile wie verkürzte Trainingszeiten und die Bündelung von Anmerkungsressourcen, deren Erstellung sowohl für die Beat-Tracking als auch für die Akkorderkennung teuer ist.
de
The rapid growth of artificial intelligence has enabled its application to a myriad of tasks across varied fields of research. Advances in A.I. approaches to multimedia related tasks have piqued the interest of a wider general public and have entered the mainstream informs of analytic applications, entertainment software and otherwise. The music domain is not an exception, methods for audio analysis and music generation, using machine learning, specifically deep learning models, are enjoying an increase in popularity due to their success compared to traditional handcrafted signal processing methods. The goal of this thesis is to investigate the potential of a combined model for two music analysis tasks: beat tracking and chord recognition. The state-of-the-art solutions for both of these problems heavily rely on deep learning, moreover, multi-task approaches for some music analysis tasks have already been proven successful in the past. It is very likely that the two problems overlap in some way and a joint deep learning model could successfully leverage data present for both tasks. Also sharing a model offers practical benefits like reduced training times and pooling of annotation resources which are expensive to produce for both beat tracking and chord recognition.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers