Mayer, R. (2012). Multi-modal analysis of music combining audio and lyrics-based features [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/161098
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2012
-
Number of Pages:
68
-
Keywords:
Music Information Retrieval; Genre Klassifikation; Analyse von Liedtexten
de
Music Information Retrieval; Genre classification; Analysis of song lyrics
en
Abstract:
Der gängige Ansatz in Music Information Retrieval besteht zumeist aus einer Analyse der Musik auf der symbolischen oder akkustischen Ebene. Viele Aufgaben werden hauptsächlich im akus- tischen Bereich zu lösen versucht. Mit Ausnahme von Symbolic Music Information Retrieval und Systemen die auf Informationen aus Partituren basieren, die genaugenommen eigenstän- dige Unterdisziplinen bilden, beruhen die meisten Ansätze zur Abfrage von Musikaufnahmen nach deren Inhalt auf verschiedenen aus dem Audiosignal gewonnenen Eigenschaften. Demnach erfolgt die Musikabfrage durch Ähnlichkeitsvergleiche oder Klassifizierung nach Musikrichtun- gen, Instrumentierung oder anderen Kriterien. Musik entspricht jedoch von Natur aus einem multimodalen Datentyp. Von rein instrumen- talen Stücken abgesehen, spielt in der Rezeption und der "Botschaft" eines Liedes der textliche Hintergrund eine ebenso wichtige Rolle wie der tonale. Die Alben-Covers werden sorgfältig künstlerisch gestaltet und auf die "Botschaft" der Musik des Albums im Besonderen und auf das Image der betreffenden Musikgruppe im Allgemeinen abgestimmt. Musikvideos, Fan-Sites und andere Informationen tragen in einer meist sehr stimmigen Art und Weise das Ihre bei. Die vorliegende Diplomarbeit befasst sich mit der Analyse von Liedtexten und untersucht, wie diese für Aufgaben der Musikdatenabfrage zusätzlich und ergänzend zu audiobasierten An- sätzen genützt werden können. Wir stellen mehrere Beispiele mit bestimmten Eigenschaften, die den Inhalt von Liedtexten erfassen und wiedergeben, vor und analysieren eingehend deren Eignung. Wir evaluieren unseren Ansatz mittels einer Kategorisierungsaufgaben in unterschiedliche Musikrichtungen auf einer Reihe von Testsammlungen und zeigen, dass Liedtexte eine Modali- tät, die bei der Verbesserung der Klassifizierungsleistung unterstützend sein kann, darstellen.
The prevalent approach in Music Information Retrieval is to analyse music on the symbolic or audio level - many tasks are predominantly tackled in the acoustic domain. With the exception of symbolic music retrieval and score-based systems, which form rather separate sub-disciplines on their own, most approaches to retrieve recordings of music by content rely on different features extracted from the audio signal. Music is subsequently retrieved by similarity matching, or classified into genre, instrumentation, artist or other categories. Yet, music is an inherently multi-modal type of data. Apart from purely instrumental pieces, the lyrics associated with the music are as essential to the reception and the message of a song as is the audio. Album covers are carefully designed by artists to convey a message that is consistent with the message sent by the music on the album as well as by the image of a band in general. Music videos, fan sites and other sources of information add to that in a usually coherent manner. This thesis contributes to the analysis of song lyrics, and explores how they can be utilised for Music Information Retrieval tasks, in addition and as a complement to audio-based approaches. We present several candidates for features sets capturing the content of the lyrics, and analyse their suitability in depth. We perform an evaluation on multiple test collections and musical genre categorisation tasks, and show that lyrics are a modality that can help to improve classification performance.