Sowula, R. (2024). Improving music mixability by using rule-based stem modification and contextual information [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.112486
E194 - Institut für Information Systems Engineering
-
Datum (veröffentlicht):
2024
-
Umfang:
91
-
Keywords:
Music Similarity; Music Signal Processing; Automatic Music Mixing; Beat-Grid Estimation; Music Source Separation; Contextual Information; Feature Extraction; Music Information Retrieval
en
Abstract:
This thesis assesses how music source separation (MSS) and contextual information can be used to improve musical similarity measures in the context of automatic music mixing. In particular, we explore how MSS can contribute to the field of music similarity calculation by modifying incompatible stems using a rule-based approach. Additionally, we investigate how audio-based similarity measures can be supplemented by contextual information to capture more aspects of music. In this work, we propose and implement an automatic music mixing system, incorporating a variety of music similarity measures and music information retrieval (MIR) techniques. We also propose a novel approach for tempo detection, outperforming state-of-the-art techniques in low error-tolerance windows. Building upon this system, we implement two additional models, incorporating rule-based stem modification and contextual similarity. To evaluate the performance of our models, we implement a web-based listening survey and performed a listening experiment across our three models and a state-of-the-art model as a baseline. The result of the listening experiment shows that our approach to song selection and automatic music mixing significantly outperforms comparable state-of-the-art. Additionally, we show that our rule-based stem removal approach significantly improves the quality of a mix. Our results do, however, not indicate any improvement in the quality of the mix by including contextual similarity to the music similarity measure. Except for the baseline model, where participants with higher musical knowledge and DJ experience rated the mixes significantly worse, no significant differences in ratings are found for different musical knowledge or DJ experience across our models.
en
Diese Arbeit evaluiert, wie Music Source Separation (MSS) und kontextuelle Informationen genutzt werden können, um musikalische Ähnlichkeitsmaße für die automatische Mix-Generation zu verbessern. Wir erkunden, wie MSS dem Bereich der musikalischen Ähnlichkeitsberechnung beitragen kann, indem inkompatible Stems mittels eines regelbasierten Ansatzes modifiziert werden. Weiters untersuchen wir, wie audiobasierte Ähnlichkeitsmaße durch kontextuelle Informationen ergänzt werden können, um ein breiteres Spektrum an Aspekten von Musik abzudecken. Im Zuge dieser Arbeit implementieren wir ein System zur automatischen Erstellung von DJ Mixes, welches eine Vielzahl von Musikähnlichkeitsmetriken und Music Information Retrieval (MIR) Techniken integriert. Weiters stellen wir einen neuen Ansatz für die Tempobestimmung von Liedern vor, welcher bei niedriger Fehlertoleranz Ansätze des derzeitigen Standes der Technik übertrifft. Auf dieses System aufbauend, implementieren wir zwei weitere Modelle, welche regelbasierte Stem Modifikation und kontextuelle Informationen integrieren. Um die Leitung unserer Modelle zu evaluieren, implementieren wir eine Webbasierte Audio-Umfrageplattform und führen eine Hörstudie mit unseren drei Modellen und einem weiteren Modell des aktuellen Stands der Technik, welches als Baseline dient, durch. Die Ergebnisse der Hörstudie zeigen, dass unser Ansatz zur Liederauswahl und automatischen Mix Generation den derzeitigen Stand der Technik signifikant übertrifft. Weiters zeigen wir, dass unser regelbasierter Stem Entfernung Ansatz die Qualität des generierten Mixes signifikant erhöht. Durch unsere Ergebnisse kann jedoch keine signifikante Steigerung der Qualität des Mixes durch Ergänzung musikalischer Ähnlichkeitsberechnung durch kontextuelle Informationen nachgewiesen werden. Bis auf das Baseline-Modell, bei dem Studienteilnehmer mit mehr Musikwissen und DJ-Erfahrung den Mix signifikant schlechter bewertet haben, gab es bei unseren Modellen keinen signifikanten Unterschied in den Bewertungen basierend auf dem Musikwissen oder der DJ-Erfahrung der Teilnehmer.