Klysa, Y. (2025). Protection the Intellectual Property of Speaker Recognition Models via Audio Watermarking [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.129964
Die erheblichen Kosten für die Entwicklung von Machine-Learning-Modellen, zusammen mit ihrer zunehmenden Verbreitung in Anwendungen wie der Sprechererkennung, machen den Schutz des geistigen Eigentums dieser Modelle zu einem wichtigen Forschungsthema.Black-Box-Watermarking-Techniken bieten einen Mechanismus, um die unrechtmäßige Wiederverwendung von Modellen nachzuweisen, beispielsweise wenn diese über einen API-Dienst bereitgestellt werden.Obwohl Watermarking im Bildbereich bereits umfassend untersucht wurde, sind Methoden für Audiomodelle, insbesondere für die Sprechererkennung, nach wie vor rar.Darüber hinaus weisen aktuelle Methoden methodologische Schwächen auf, darunter mangelnde Reproduzierbarkeit und unzureichende Evaluierung; in einigen Fällen basieren sie auf fragwürdigen Designentscheidungen.Diese Arbeit präsentiert eine systematische Untersuchung von Black-Box-Watermarking-Methoden für Sprechererkennungsmodelle mit dem Ziel, deren Schwächen zu identifizieren und ihre Anwendbarkeit zu verbessern. Wir implementieren bestehende Watermarking-Methoden und replizieren die berichteten Ergebnisse, identifizieren und beheben Reproduzierbarkeitslücken und betonen dabei eine rigorose, reproduzierbare Vorgehensweise in allen zentralen Anforderungen.Darüber hinaus erweitern wir die Evaluierung durch den Einsatz geeigneterer Metriken für die Analyse der Wahrnehmbarkeit der Wasserzeichen sowie durch die Einführung des Konzepts der Angriffskosten, womit wir ein umfassendes Bewertungsframework für Sprechererkennungs-Wasserzeichen vorstellen.Ferner untersuchen wir die Anwendbarkeit der Watermarking-Methoden auf verschiedene Datensätze und Modellarchitekturen (d. h. ihre Allgemeingültigkeit) und bewerten das Risiko, dass Wasserzeichen von einer böswilligen Partei gefälscht werden können, ohne die genaue Methode oder die Einbettungsparameter zu kennen (d. h. ihre Rechtssicherheit). Auf dieser Grundlage schlagen wir anschließend Gegenmaßnahmen vor. Zudem analysieren wir die unterschiedlichen, in Konflikt stehenden Ziele der Unwahrnehmbarkeit und Robustheit der Wasserzeichen, und schlagen Strategien vor, die die Unwahrnehmbarkeit verbessern, ohne die Wirksamkeit des Wasserzeichens oder die Modelltreue zu beeinträchtigen. Abschließend geben wir Richtlinien für das Design und die Evaluierung von Watermarking-Methoden für die Sprechererkennung mit spezifischen Empfehlungen zur Parameterauswahl.
de
The substantial costs of developing machine learning models, alongside their growing adoption in applications such as speaker recognition, make the protection of the intellectual property of these models an important research topic.Black-box watermarking techniques provide a mechanism to verify illicit reuse of models, for instance, when made available through an API service. Although watermarking has been extensively studied for models in the image domain, methods for audio models, specifically speaker recognition, remain scarce.Moreover, current methods exhibit methodological weaknesses, including the lack of reproducibility and insufficient evaluation; in some cases, they rely on questionable design choices.This thesis presents a systematic study of state-of-the-art black-box watermarking methods for speaker recognition models, with the aim of identifying their weaknesses and improving their applicability. We implement existing watermarking methods and replicate their reported results, identifying and addressing reproducibility gaps, thereby emphasising rigorous, reproducible practice across all key requirements. We further extend their evaluation by employing more suitable metrics for imperceptibility analysis and by incorporating the notion of an attack cost, thereby presenting a comprehensive evaluation framework for speaker recognition watermarks.Furthermore, we examine the applicability of the watermarking methods across different datasets and model architectures (i.e., their generality), and assess the risk of watermarks being forged by a malicious party without knowing the exact watermarking method or embedding parameters (i.e., legality), based on which we subsequently propose mitigation strategies. In addition, we analyse trade-offs between imperceptibility and robustness, and propose strategies that enhance imperceptibility while preserving watermark effectiveness and model fidelity. Finally, we provide guidelines for the design and evaluation of speaker recognition watermarking methods, with specific recommendations on parameter selection.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers