<div class="csl-bib-body">
<div class="csl-entry">Bognár, P. (2022). <i>Audio effect modeling with deep learning methods</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.94860</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2022.94860
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/20365
-
dc.description.abstract
Ein digitaler Audioeffekt ist ein künstlich erzeugter Klang, der verwendet wird, um den künstlerischen Inhalt des Klangs eines Musikinstruments hervorzuheben, und Audiomodellierung ist der Prozess der Emulation eines physikalischen Audioeffekts, um den Klang des Originalgeräts nachzubilden. Die vorliegende Arbeit beschäftigt sich mit digitalem Audioeffekt-Modeling mittels Deep-Learning-Methoden. Hierfür geeignete State-of-the-Art-Architekturen wie Recurrent Neural Networks, U-nets und Wavenet werden beschrieben und ihre Anwendbarkeit diskutiert. Im Rahmen dieser Arbeit werden drei verschiedene digitale Effekte betrachtet: High-Gain-Verzerrung, zeitbasiertes Delay und Tremolo-Modulation. Diese Effekte wurden aufgrund ihrer unterschiedlichen Anforderungen an die Modelle im Zeit- und Frequenzbereich ausgewählt. Die ausgewählte Netzwerkarchitektur wird des weiteren modifiziert, um unterschiedliche Parametereinstellungen für die unterschiedlichen Effekte zu lernen. Dies wird durch die Implementierung zusätzlicher Feature-wise Linear Modulation (FiLM) Schichten erreicht, die es ermöglichen, dedizierte Inputs zur Parametersteuerungen zu integrieren. Dies ist eine neuartige Erweiterung aktueller Effekt-Modeling Methoden auf Basis von Machine-Learning und stellt den ersten Beitrag dieser Arbeit dar. Das Training und die Evaluierung erfolgen mithilfe virtueller Effekte, die auf eine schnelle Laufzeitleistung abgestimmt sind. Dies ist eine Notwendigkeit für die On-the-Fly-Datengenerierung, welche wiederum für das verwendete Teacher-Student Trainingssetup erforderlich ist. Neben der Error-to-Signal- Ratio Lossfunktion, wird eine multi-resolution STFT-Lossfunktion im Zusammenhang mit zeitbasierten Effekten erfolgreich angewendet. Dies verbessert die Ergebnisse in diesen Fällen und macht die Anwendung auf zeitbasierte Effekte möglich, was einen zweiten Beitrag dieser Arbeit darstellt. Für drei Parameterkonfigurationen für jeden der drei betrachteten Effekte werden sowohl eine quantitative als auch eine qualitative Evaluierung durchgeführt. Die vorliegende Arbeit zeigt, dass die vorgeschlagene neuronale Netzwerkarchitektur das Potenzial hat, High-Gain-Verzerrungs- und Verzögerungseffekte überzeugend zu emulieren, während Tremoloeffekte nicht zufriedenstellend emuliert werden konnten. Gleichzeitig bietet die Architektur die Möglichkeit Parameter und deren Auswirkung auf die Effekte zu lernen. Dies stellt schließlich ein Framework dar, mit dem das Klonen von Audioeffekten mittels Machine-Learning Modellen ermöglicht wird.
de
dc.description.abstract
A digital audio effect is an artificially created sound, which is used to emphasize the artistic content of the sound of a musical instrument, and audio modeling is the process of emulating a physical audio effect, to recreate the sound of the original device. The focus of this thesis is the application of deep learning methods for digital audio effect modeling. Suitable state-of-the-art architectures, such as Recurrent Neural Networks, U-nets, and Wavenet, are introduced and their applicability is discussed. In the context of this work, three different digital effects are considered: high-gain distortion, time-based delay, and tremolo modulation. These effects are selected due to their different requirements regarding processing capabilities in the time and frequency domains, which make them representative examples for a larger variety of digital effects. The chosen neural network architecture is modified to be capable of learning different parameter settings for each effect. This is done by implementing additional Feature-wise Linear Modulation (FiLM) layers, which allow to incorporate dedicated inputs for parameter controls. This is a novel extension of current state-of-the-art machine-learning-based effect modeling and constitutes a first contribution of this thesis. The training and evaluation is done using virtual effects, tuned for fast runtime performance. This is a necessity for on-the-fly data generation, required by the chosen teacher-student training setup. Besides the error-to-signal ratio loss used throughout the related work, a multi-resolution STFT loss function is successfully applied in the context of time-based effects. This improves the results in these cases, and makes the application to time-based effects viable, which constitutes a second contribution of this thesis. Both a quantitative and a qualitative evaluation is performed on three configurations for each of the three effects considered. The study demonstrates that the proposed neural network architecture has the potential to convincingly emulate high-gain distortion and delay effects, while tremolo effects currently less successfully emulated. Incorporating the capability to learn the influence of parameter settings of these effects as well, provides a framework for fully automated audio effects cloning based on machine learning.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
audio modeling
en
dc.subject
audio effect emulation
en
dc.subject
audio effects
en
dc.subject
deep learning
en
dc.subject
conditional training
en
dc.subject
wavenet architecture
en
dc.subject
dilated convolutions
en
dc.subject
distortion circuits
en
dc.subject
delay
en
dc.subject
tremolo
en
dc.title
Audio effect modeling with deep learning methods
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2022.94860
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Péter Bognár
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Vogl, Richard
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering