<div class="csl-bib-body">
<div class="csl-entry">Steinhauser, M. (2026). <i>Recurrent audio forecasting for active noise cancellation</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.124824</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2026.124824
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/227569
-
dc.description.abstract
Active Noise Cancellation (ANC) suppresses unwanted sound by generating an anti-noise signal that destructively interferes with the disturbance. It is widely used in consumer applications such as headphones and automotive systems. For effective cancellation, the anti-noise must be generated with minimal latency, which imposes strict real-time constraints. This motivates predictive approaches in which the anti-noise is computed based on a short-term prediction of the acoustic signal. However, accurate forecasting under tight timing constraints introduces significant challenges in terms of Computational efficiency, particularly for embedded systems with limited hardware resources. Conventional ANC approaches primarily rely on adaptive filters operating in feedback and feedforward configurations, while recent research has explored complex deep learning models. While State-Space Models (SSMs) have been successfully applied in sequence modeling, their use for predictive audio forecasting in ANC systems has not yet been systematically explored. They combine a linear recurrent structure with a complex-valued diagonal parameterization, enabling parallel training and efficient discretization. This design allows constant-memory inference independent of sequence length and supports causal real-time operation on embedded hardware. In this work, we investigate the use of SSMs for audio forecasting to enable real-time anti-noise generation. We show that SSMs can accurately forecast audio signalsand achieve low Mean Absolute Error (MAE) and Mean Squared Error (MSE) for the SpeechCommands and ESC-50 datsets. Our analysis further demonstrates strong cross-dataset generalization and Shows that the proposed models can operate at different sampling rates without retraining, enabling flexibledeployment across a wide range of systems. However, we also identify limitations in prediction accuracy for signals with energy distributed across the entire available bandwidth and practical constraints regarding computational efficiency in strictly resource-limited scenarios.
en
dc.description.abstract
Aktive Geräuschunterdrückung (Active Noise Cancellation) reduziert unerwünschte Geräusche, indem ein Gegensignal erzeugt wird, das mit dem Störsignal destruktiv interferiert. Derartige Systeme sind weit verbreitet, beispielsweise in Kopfhörern oder in der Fahrzeugakustik. Für eine effektive Unterdrückung muss das Gegensignal mit minimaler Latenz erzeugt werden, wodurch strenge Echtzeitanforderungen an das System gestellt werden. Dies motiviert vorausschauende Ansätze, bei denen das Gegensignal auf Basis einer kurzzeitigen Vorhersage des akustischen Signals berechnet wird. Eine präzise Vorhersage unter diesen zeitlichen Randbedingungen erfordert jedoch eine hohe rechnerische Effizienz, insbesondere bei eingebetteten Systemen mit begrenzten Hardware-Ressourcen. Konventionelle Ansätze zur Geräuschunterdrückung basieren überwiegend auf adaptiven Filtern in Rückkopplungs- und Vorsteuerungsstrukturen. Neuere Arbeiten untersuchen komplexe Modelle des maschinellen Lernens. Zustandsraummodelle wurden zwar bereits erfolgreich zur Sequenzmodellierung eingesetzt, jedoch bislang nicht systematisch für die Vorhersage von Audiosignalen im Kontext der aktiven Geräuschunterdrückung untersucht. Sie kombinieren eine lineare rekurrente Struktur mit einer komplexwertigen diagonalen Parametrierung, wodurch paralleles Training und eine effiziente Diskretisierung ermöglicht werden. Diese Architektur führt zu einem konstanten Speicherbedarf unabhängig von der Sequenzlänge und erlaubt eine kausale Echtzeitverarbeitung auf eingebetteter Hardware. In dieser Arbeit werden Zustandsraummodelle zur Vorhersage von Audiosignalen untersucht, um die Echtzeitberechnung von Gegensignalen zu ermöglichen. Es wird gezeigt, dass Zustandsraummodelle Audiosignale präzise vorhersagen können und niedrige Fehlermetriken für die SpeechCommandsund ESC-50 Datensätze erreichen. Die Analyse zeigt zudem eine gute Generalisierungsfähigkeit über verschiedene Datensätze hinweg und belegt, dass die vorgeschlagenen Modelle bei unterschiedlichen Abtastraten ohne erneutes Training eingesetzt werden können, was eine flexible Nutzung in einer Vielzahl von Systemen ermöglicht. Gleichzeitig werden Grenzen hinsichtlich der Vorhersagegenauigkeit bei Signalen, deren Energie über das gesamte Frequenzspektrum verteilt ist, sowie Einschränkungen bezüglich der rechnerischen Effizienz unter stark ressourcenbeschränkten Bedingungen aufgezeigt.
de
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Deep Neural Networks
en
dc.subject
State Space Models
en
dc.subject
Active Noise Control
en
dc.title
Recurrent audio forecasting for active noise cancellation
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2026.124824
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Moritz Steinhauser
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Bittner, Matthias
-
tuw.publication.orgunit
E384 - Institut für Computertechnik
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC17836763
-
dc.description.numberOfPages
47
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0003-2251-0004
-
tuw.assistant.orcid
0009-0004-8022-2232
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.fulltext
with Fulltext
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
item.grantfulltext
open
-
item.mimetype
application/pdf
-
item.openaccessfulltext
Open Access
-
item.cerifentitytype
Publications
-
crisitem.author.dept
E376 - Institut für Automatisierungs- und Regelungstechnik
-
crisitem.author.parentorg
E350 - Fakultät für Elektrotechnik und Informationstechnik