Pflugfelder, B. (2008). Discriminant analysis of three rhythmic descriptors in musical genre classification [Master Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-24221
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2008
-
Number of Pages:
152
-
Keywords:
Music Information Retrieval; Klassifikation von Genres; Diskriminierung von Klassen; Merkmalsselektion
de
Music Information Retrieval; Genre classification; Class discrimination; Feature selection
en
Abstract:
Die Einführung der digitalen Repräsentation von Musik hat die Erstellung, den Zugriff sowie die Verwendung von Musikarchiven entscheidend verändert. Bis zum heutigen Zeitpunkt existiert bereits eine immense Anzahl von Musikarchiven, so dass sich die Einstellung gegenüber des "Konsumierens von Musik" fundamental verändert hat. Sowohl der kommerzielle Bereich, wie u.a. Musikproduzenten oder Musikdistributoren, als auch der private Bereich tragen dazu bei, dass die Bedeutung von digitalen Musikarchiven weiterhin zunimmt. Aufgrund der Größe von Musikarchiven müssen jedoch neue Anforderungen an die Organisation von Musikstücken bzw. an den individuellen Zugriff auf und die Suche von Musikstücken berücksichtigt werden. Um einen effektiven Zugriff bzw. eine effektive Suche zu garantieren, sind skalierbare Methoden zur automatisierten Erstellung einer Organisation von Musikarchiven basierend auf einer spezifischen musikalisch-orientierten Semantik notwendig. Das Forschungsgebiet Music Information Retrieval (MIR) widmet sich der Entwicklung von solchen Methoden, welche einerseits die Bildung von semantischen Gruppen von Musikstücken und andererseits dem Klassifizieren von Musikstücken ermöglichen soll.<br />Grundsätzlich bezieht sich eine solche musikalische Semantik auf ein spezifisches Maß, welches die Ähnlichkeit des musikalischen Inhaltes abbildet. Eine solche inhaltliche Ähnlichkeit wird über den Vergleich von musikalischen Aspekten wie Rhythmus, Melodie, Instrumentierung, usw.<br />der einzelnen Musikstücke ermittelt, welche zuvor automatisiert extrahiert werden müssen. Die semantische Beziehung von Musikstücke derselben Gruppe wird somit über eine spezifische Ähnlichkeit des musikalischen Inhaltes definiert.<br />Eine der interessantesten Kategorien für die Organisation von beliebigen Musikarchiven stellen Genres dar. Im Vergleich zu anderen möglichen Kategorien bieten Genres ein intuitives Verständnis zur Organisation von Musikarchiven. Beispielsweise findet man etwa in Musikgeschäften oder in Musikbibliotheken sehr häufig nach Genres strukturierte Musiksammlungen. Innerhalb der Forschungsgemeinschaft von MIR wird angenommen, dass dieses intuitive Verständnis der Kategorisierung von Musikstücken auf die inhärente Aussagekraft von Genres bezüglich bestimmter musikalischer Aspekte der einzelnen Musikstücke desselben Genres basiert. Daraus könnte man folgern, dass ein bestimmtes Genre durch spezifische rhythmische, melodische oder andere musikalische Aspekte eindeutig beschrieben werden kann. Jedoch ist diese Annahme bezüglich einer rein inhaltlich basierenden Repräsentation von musikalischen Genres ungenügend, da auch nicht inhaltsbezogene Aspekte wie beispielsweise die kulturelle Herkunft von Musiker bzw. der kulturelle Kontext von Songtexten die Definition von Genres beeinflussen.<br />Ausgehend von dieser potentiellen Aussagekraft von Genres wurde im Rahmen dieser Masterarbeit die Unterscheidbarkeit von Genres hinsichtlich des musikalischen Aspektes Rhythmus untersucht, wobei ausschließlich die drei Deskriptoren Rhythm Patterns (RP), Statistical Spectrum Descriptor (SSD) sowie Rhythm Histogram (RH) verwendet wurden.<br />Diese drei Deskriptoren definieren jeweils eine große Anzahl an einzelnen Merkmalen zur Repräsentation des Rhythmus einzelner Musikstücke im weitesten Sinn. Zwei grundsätzliche Fragenstellungen wurden in der Masterarbeit durch eine eingehende empirische Analyse evaluiert. Die erste Fragestellung widmete sich der möglichen Beschreibung von Genres durch eindeutige, nur dem jeweiligem Genre zugeordnete, Rhythmusmuster. Diese Zuordnung wurde jeweils mit Hilfe von fünf verschiedenen heuristischen Berechnungsmodellen ermittelt, welche die Unterscheidbarkeit eines spezifischen Genres durch das jeweilig untersuchte Rhythmus-Merkmal ermittelt. Zu diesem Zwecke wurde eigens die Applikation DiscriminationAnalyzer entwickelt, mit dessen Hilfe beliebige Merkmale aus einer gegebenen Merkmalsmenge dahingehend untersucht werden können, ob und wie stark eine Unterscheidbarkeit von Genres bezüglich der untersuchten Merkmale gegeben ist. Vor allem die Verarbeitung beliebiger Deskriptoren, die Auswahl von verschiedenen Berechnungsmodellen und eine angemessene Visualisierung der Ergebnisse zeichnen diese Applikation aus. Die zweite Fragestellung beschäftigte sich mit der Evaluierung einer Merkmalsreduktion basierend auf diesem Unterscheidbarkeitspotential der einzelnen Merkmale im Zusammenhang mit der automatischen Klassifizierung von Musikstücken nach Genres. Die Reduktion von Merkmalen hat im Kontext der Klassifizierung eine besondere Bedeutung, da neben der Laufzeitoptimierung insbesondere auch der negative Einfluss des so genannten Fluch der Dimensionalität durch eine entsprechende Reduktion der verwendeten Merkmale möglichst minimiert wird. Als Kriterium für diese Merkmalsreduktion wurde die jeweilige Unterscheidbarkeit jedes einzelnen Merkmals bezüglich der Genres verwendet.<br />
de
The introduction of digital music representation considerably altered the ways of creating, accessing and using music. Until today an immense number of music archives have been made available so that the actual attitude of "music consumption" has changed fundamentally. Both the commercial domain as for instance represented by music producers or music distributors and the private domain play a major role in the increasing importance of digital music archives. Yet, the size of music archives which can often be enormous demands new requirements according to the internal organization of included musical pieces as well as the individual access and search of musical pieces. Consequently, this means that scalable methods must be provided to automatically establish organizations of music archives according to specific musical semantics. The research field of Music Information Retrieval (MIR) aims to develop such methods which make possible a grouping, i.e.<br />clustering or classification, of music pieces according to specifically defined musical semantics. Basically, such a musical semantics refers to the measuring the similarity of the underlying musical content. The definition of this content-based similarity is based on individual musical characteristics like for instance rhythm, melody, instrumentation or others.<br />Musical genres represent a very popular and frequently used musical category to organize music collections. In comparison to other possible musical categories, musical genres provide an intuitive understanding for categorization and are frequently used by humans to organize music. For instance, music retailers or music libraries widely use genre categorization to provide an effective organization of offered music collections. Within the MIR community the assumption generally holds true that the understanding of genres is potentially based on the descriptive power of certain content-based characteristics of the included musical pieces. Consequently, specific genres may be actually related to a certain rhythmic, melodic or other musical characteristics. Unfortunately, this assumption of music genre representation based on content-based semantics appears to be insufficient as not content-based characteristics like for instance the cultural origin of artists and the cultural context of lyrics also play a role in the definition of musical genres.<br />Based on that potentially descriptive power of genres this master thesis examines the discrimination of musical genres in terms of rhythmic characteristics. Since various rhythmic descriptors exist in MIR, the three descriptors Rhythm Pattern (RP), Statistical Spectrum Descriptor (SSD) and Rhythm Histogram (RH) have been used throughout this thesis only. Each of these three descriptors contains a large number of features to constitute the specific rhythmic component of an individual piece of music. In particular two key questions were analyzed based on extensive empirical evaluations. The first question was dedicated to the possible discrimination of genres based on specific feature patterns within the descriptor which were suited for genre discrimination. Such feature patterns were determined by applying five different heuristic discrimination models in order to estimate the contribution of every feature to distinguish a specific genre. For this purpose the DiscriminationAnalyzer tool was designed to compute and to visualize the discriminative power of features according to class discrimination. Moreover, the processing of arbitrary feature sets, the selection of different calculation models and an appropriate visualization of the results are key properties of this application. The second question focused on the evaluation of the usefulness concerning dimensionality reduction, i.e. feature selection, based on the discriminative power of the features to correctly distinguish the underlying classes. In usual classification applications, feature selection is especially important not only because of the potential run-time optimization but also because of the deteriorating influence of the curse of dimensionality. The presented application also includes an embedded evaluation of the most discriminative features with arbitrary learning algorithms.<br />