text classification; textmining; song lyrics; musical genre
en
Abstract:
In einer Zeit der starken Verbreitung digitaler Musik versucht man mit verschiedenen Techniken die großen Mengen an Musik zu organisieren. Ein bewährtes Mittel ist die Einteilung von Musik in das entsprechende Musikgenre. In dieser Arbeit erfolgt dies durch die Analyse von Musik in Form von Songtexten. Mit Hilfe von Text Categorization Methoden wird ein Ansatz zur automatischen Klassifikation von Songtexten, welche verschiedenen Lyric-Webseiten entnommen wurden, präsentiert. Dazu werden den Songtexten verschiedene Features, welche sowohl inhaltsbasiert als auch strukturbasiert sind, extrahiert. Mit diesen Features wird ein Klassifikator trainiert, welcher dann dem jeweiligen Songtext das entsprechende Musikgenre zuordnet. Bei der Klassifikation kommen Support Vector Machines und der Naive Bayes Klassifikator zum Einsatz. Die in dieser Arbeit durchgeführten Experimente umfassen die Evaluierung des Klassifikationsprozesses und die Kombination verschiedener Features zur Steigerung der Klassifikationsgenauigkeit. Mit Hilfe der Ergebnisse wird untersucht, wie viele Songtexte zur Definition eines Genres erforderlich sind, wie gut die Klassifikationen ausfallen und welche Featurekombinationen sich am Besten für diesen Ansatz der Songtextklassifikation eignen.
The organization of large quantities of music is a common problem in an era, in which there is an increase in the spread of digital music. A well-tried means is the classification in appropriate music genres. In this paper we propose the use of text categorization techniques to classify music in the form of song lyrics, which are present in the internet. In addition, different features, both content-based and structure-based features, are extracted from the song lyrics. With these features a classifier is trained, which then assigns the appropriate music genre to the respective lyrics. Support Vector Machines and Naive Bayes Classifiers are primarily used in such classifications. We present experiments comprising the evaluation of the classification process and the combination of different features to increase the classification accuracy. On the basis of these experiments, we study how many lyrics are necessary to get good results, which overall performance we can expect for classification and which feature combinations are suitable for the classification of song lyrics.