<div class="csl-bib-body">
<div class="csl-entry">Peer, T. (2023). <i>Comparing neural network architectures for drum pattern generation</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.112485</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2023.112485
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/188561
-
dc.description.abstract
In dieser Arbeit wird eine Vergleichsstudie zweier Machine Learning Methoden für Drum-Pattern Erzeugung vorgestellt. Die erste Methode verwendet einen auf Long Short- Term Memory (LSTM) basierenden Variational Autoencoder (VAE) und die zweite eine Transformer-Architektur. Die Qualität der erzeugten Drum-Patterns jedes Modelltyps wird mithilfe einer Evaluierungssmethode bewertet, die automatisch berechnete Metriken und eine Hörstudie mit menschlichen Teilnehmer/innen kombiniert. Darüber hinaus wird untersucht, inwieweit die berechneten Metriken mit menschlichen Bewertungen korrelieren, um festzustellen, ob und bis zu welchem Grade menschliche Bewertungen mit solchen Metriken angenähert werden können. Für die Hörstudie wurde ein Webinterface entwickelt, das Studienteilnehmern/innen das Anhören und Bewerten von Drum-Patterns ermöglicht. Die Studienteilnehmer/innen haben die Qualität der generierten Drum Patterns der Transformer-Architektur höher eingestuft als den des LSTM-basierten VAE-Modelles. Darüber hinaus waren die Studienteilnehmer/innen nicht in der Lage, von Menschen komponierte Drum-Patterns von denen zu unterscheiden, die von dem Transformer-Modell erzeugt wurden, wenn Mikrotiming und Dynamik weggelassen wurden. Es werden mehrere berechenbare Proxy-Metriken vorgestellt, die stark mit den menschlichen Bewertungen korrelieren. Diese eignen sich als Heuristiken für Szenarien in denen Hörtests nicht durchgeführt werden können. Die Ergebnisse zeigen, dass Mikrotiming und Dynamik für die menschliche Wahrnehmung der Qualität von Drum-Patterns von erheblicher Bedeutung sind. Dies bedeutet in Folge, dass die Modellierung dieser Informationen als Teil der generierten Muster wichtig erscheint, um Drum-Patterns zu erzeugen, die mit von Menschen komponierten Patterns vergleichbar sind. Darüber hinaus korreliert die Reconstruction Accuracy Metrik, die häufig zur Qualitätsmessung von VAE Modellen verwendet wird, nicht mit den Bewertungsergebnissen der Hörstudie, was die Grenzen der Bewertung des generativen Outputs mit dieser Metrik verdeutlicht. Die Berechnung verschiedener statistischer Eigenschaften der generierten Drum-Patterns und der Vergleich dieser mit jenen aus den Trainingsdaten scheint jedoch eine zuverlässige Heuristik und potentielles Substitut für menschliche Bewertung der Drum-Pattern Qualität zu sein.
de
dc.description.abstract
This thesis presents a comparative study of two machine learning methods for drum pattern generation, one using a Long Short-Term Memory (LSTM) based Variational Autoencoder (VAE), and the other utilizing a Transformer architecture. The quality of generated drum patterns from each model type is assessed via an evaluation method combining computable objective metrics with a human listening survey. Furthermore, the extent to which computable metrics correlate with human assessments is investigated to determine to what degree human evaluation scores can be approximated with such metrics. A custom web interface was designed for the listening survey, facilitating the evaluation process by allowing individuals to listen to and rate drum patterns. Human evaluators ranked the output of the Transformer architecture as higher in quality than the LSTM- based VAE approach. Moreover, when microtiming and velocity information was ignored, human annotators were not able to distinguish human-composed drum patterns from those generated by the top-performing Transformer model. Several computable proxy metrics are presented that correlate strongly with the human ratings, which are recommended for use in scenarios when human listening tests cannot be conducted. The results indicate that velocity and microtiming data is of significant importance to the human perception of drum pattern quality and that modelling this information as part of the generative output appears necessary for achieving quality levels on par with human-composed drum patterns. Furthermore, the reconstruction accuracy metric, commonly used to measure VAE performance, does not correlate strongly with human evaluation scores, demonstrating the limitations of assessing generative models with this metric. However, calculating the distribution of measurable attributes present in the generated sequences and comparing these to those found in the training data appears to be a reliable indication of human scores of model performance.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
generative music
en
dc.subject
machine learning
en
dc.subject
variational autoencoder
en
dc.subject
transformer
en
dc.subject
neural networks
en
dc.title
Comparing neural network architectures for drum pattern generation
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2023.112485
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Taylor Peer
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Vogl, Richard
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering