Recurrent audio forecasting for active noise cancellation

Steinhauser, Moritz

doi:10.34726/hss.2026.124824

DC Field

Value

Language

dc.contributor.advisor

Jantsch, Axel

dc.contributor.author

Steinhauser, Moritz

dc.date.accessioned

2026-04-13T11:26:46Z

dc.date.issued

2026

dc.date.submitted

2026-02

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Steinhauser, M. (2026). <i>Recurrent audio forecasting for active noise cancellation</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.124824</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2026.124824

dc.identifier.uri

http://hdl.handle.net/20.500.12708/227569

dc.description.abstract

Active Noise Cancellation (ANC) suppresses unwanted sound by generating an anti-noise signal that destructively interferes with the disturbance. It is widely used in consumer applications such as headphones and automotive systems. For effective cancellation, the anti-noise must be generated with minimal latency, which imposes strict real-time constraints. This motivates predictive approaches in which the anti-noise is computed based on a short-term prediction of the acoustic signal. However, accurate forecasting under tight timing constraints introduces significant challenges in terms of Computational efficiency, particularly for embedded systems with limited hardware resources. Conventional ANC approaches primarily rely on adaptive filters operating in feedback and feedforward configurations, while recent research has explored complex deep learning models. While State-Space Models (SSMs) have been successfully applied in sequence modeling, their use for predictive audio forecasting in ANC systems has not yet been systematically explored. They combine a linear recurrent structure with a complex-valued diagonal parameterization, enabling parallel training and efficient discretization. This design allows constant-memory inference independent of sequence length and supports causal real-time operation on embedded hardware. In this work, we investigate the use of SSMs for audio forecasting to enable real-time anti-noise generation. We show that SSMs can accurately forecast audio signalsand achieve low Mean Absolute Error (MAE) and Mean Squared Error (MSE) for the SpeechCommands and ESC-50 datsets. Our analysis further demonstrates strong cross-dataset generalization and Shows that the proposed models can operate at different sampling rates without retraining, enabling flexibledeployment across a wide range of systems. However, we also identify limitations in prediction accuracy for signals with energy distributed across the entire available bandwidth and practical constraints regarding computational efficiency in strictly resource-limited scenarios.

dc.description.abstract

Aktive Geräuschunterdrückung (Active Noise Cancellation) reduziert unerwünschte Geräusche, indem ein Gegensignal erzeugt wird, das mit dem Störsignal destruktiv interferiert. Derartige Systeme sind weit verbreitet, beispielsweise in Kopfhörern oder in der Fahrzeugakustik. Für eine effektive Unterdrückung muss das Gegensignal mit minimaler Latenz erzeugt werden, wodurch strenge Echtzeitanforderungen an das System gestellt werden. Dies motiviert vorausschauende Ansätze, bei denen das Gegensignal auf Basis einer kurzzeitigen Vorhersage des akustischen Signals berechnet wird. Eine präzise Vorhersage unter diesen zeitlichen Randbedingungen erfordert jedoch eine hohe rechnerische Effizienz, insbesondere bei eingebetteten Systemen mit begrenzten Hardware-Ressourcen. Konventionelle Ansätze zur Geräuschunterdrückung basieren überwiegend auf adaptiven Filtern in Rückkopplungs- und Vorsteuerungsstrukturen. Neuere Arbeiten untersuchen komplexe Modelle des maschinellen Lernens. Zustandsraummodelle wurden zwar bereits erfolgreich zur Sequenzmodellierung eingesetzt, jedoch bislang nicht systematisch für die Vorhersage von Audiosignalen im Kontext der aktiven Geräuschunterdrückung untersucht. Sie kombinieren eine lineare rekurrente Struktur mit einer komplexwertigen diagonalen Parametrierung, wodurch paralleles Training und eine effiziente Diskretisierung ermöglicht werden. Diese Architektur führt zu einem konstanten Speicherbedarf unabhängig von der Sequenzlänge und erlaubt eine kausale Echtzeitverarbeitung auf eingebetteter Hardware. In dieser Arbeit werden Zustandsraummodelle zur Vorhersage von Audiosignalen untersucht, um die Echtzeitberechnung von Gegensignalen zu ermöglichen. Es wird gezeigt, dass Zustandsraummodelle Audiosignale präzise vorhersagen können und niedrige Fehlermetriken für die SpeechCommandsund ESC-50 Datensätze erreichen. Die Analyse zeigt zudem eine gute Generalisierungsfähigkeit über verschiedene Datensätze hinweg und belegt, dass die vorgeschlagenen Modelle bei unterschiedlichen Abtastraten ohne erneutes Training eingesetzt werden können, was eine flexible Nutzung in einer Vielzahl von Systemen ermöglicht. Gleichzeitig werden Grenzen hinsichtlich der Vorhersagegenauigkeit bei Signalen, deren Energie über das gesamte Frequenzspektrum verteilt ist, sowie Einschränkungen bezüglich der rechnerischen Effizienz unter stark ressourcenbeschränkten Bedingungen aufgezeigt.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Deep Neural Networks

dc.subject

State Space Models

dc.subject

Active Noise Control

dc.title

Recurrent audio forecasting for active noise cancellation

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2026.124824

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Moritz Steinhauser

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Bittner, Matthias

tuw.publication.orgunit

E384 - Institut für Computertechnik

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17836763

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0003-2251-0004

tuw.assistant.orcid

0009-0004-8022-2232

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.fulltext

with Fulltext

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.mimetype

application/pdf

item.openaccessfulltext

Open Access

item.cerifentitytype

Publications

crisitem.author.dept

E376 - Institut für Automatisierungs- und Regelungstechnik

crisitem.author.parentorg

E350 - Fakultät für Elektrotechnik und Informationstechnik

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(1.71 MB)

In Copyright

Show simple item record

Page view(s)

checked on Apr 13, 2026

Download(s)

checked on Apr 13, 2026

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM